社交媒体用户生成的文本实际上是许多NLP任务的主要资源。但是,本文不遵循标准写作规则。此外,在书面通信中使用方言(例如摩洛哥阿拉伯语)增加了NLP任务的复杂性。方言是一种口头语言,没有标准拼字法,这会导致用户在写作时即兴拼写。因此,对于相同的词,我们可以找到多种形式的音译。随后,必须将这些不同的音译标准化为一种规范的单词形式。为了实现这一目标,我们利用了用YouTube评论生成的单词嵌入模型的强大性。此外,使用提供规范形式的摩洛哥阿拉伯方言词典,我们构建了一个规范化词典,我们称为Manorm。我们已经进行了几项实验,以证明Manorm的效率,这些实验表明其在方言归一化中有用。
translated by 谷歌翻译